Overly optimistic prediction results on imbalanced data: a case study of flaws and benefits when applying over-sampling

نویسندگان

چکیده

Information extracted from electrohysterography recordings could potentially prove to be an interesting additional source of information estimate the risk on preterm birth. Recently, a large number studies have reported near-perfect results distinguish between patients that will deliver term or using public resource, called Term/Preterm Electrohysterogram database. However, we argue these are overly optimistic due methodological flaw being made. In this work, focus one specific type flaw: applying over-sampling before partitioning data into mutually exclusive training and testing sets. We show how causes biased two artificial datasets reproduce in which was identified. Moreover, evaluate actual impact predictive performance, when applied prior partitioning, same methodologies related studies, provide realistic view methodologies’ generalization capabilities. make our research reproducible by providing all code under open license.

برای دانلود باید عضویت طلایی داشته باشید

برای دانلود متن کامل این مقاله و بیش از 32 میلیون مقاله دیگر ابتدا ثبت نام کنید

اگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید

منابع مشابه

a study on insurer solvency by panel data model: the case of iranian insurance market

the aim of this thesis is an approach for assessing insurer’s solvency for iranian insurance companies. we use of economic data with both time series and cross-sectional variation, thus by using the panel data model will survey the insurer solvency.

the effect of consciousness raising (c-r) on the reduction of translational errors: a case study

در دوره های آموزش ترجمه استادان بیشتر سعی دارند دانشجویان را با انواع متون آشنا سازند، درحالی که کمتر به خطاهای مکرر آنان در متن ترجمه شده می پردازند. اهمیت تحقیق حاضر مبنی بر ارتکاب مکرر خطاهای ترجمانی حتی بعد از گذراندن دوره های تخصصی ترجمه از سوی دانشجویان است. هدف از آن تاکید بر خطاهای رایج میان دانشجویان مترجمی و کاهش این خطاها با افزایش آگاهی و هوشیاری دانشجویان از بروز آنها است.از آنجا ک...

15 صفحه اول

a case study of the two translators of the holy quran: tahereh saffarzadeh and laleh bakhtiar

بطورکلی، کتاب های مقدسی همچون قران کریم را خوانندگان میتوان مطابق با پیش زمینه های مختلفی که درند درک کنند. محقق تلاش کرده نقش پیش زمینه اجتماعی-فرهنگی را روی ایدئولوژی های مترجمین زن و در نتیجه تاثیراتش را روی خواندن و ترجمه آیات قرآن کریم بررسی کند و ببیند که آیا تفاوت های واژگانی عمده ای میان این مترجمین وجود دارد یا نه. به این منظور، ترجمه 24 آیه از آیات قرآن کریم مورد بررسی مقایسه ای قرار ...

15 صفحه اول

Borderline over-sampling for imbalanced data classification

Traditional classification algorithms, in many times, perform poorly on imbalanced data sets in which some classes are heavily outnumbered by the remaining classes. For this kind of data, minority class instances, which are usually much more of interest, are often misclassified. The paper proposes a method to deal with them by changing class distribution through oversampling at the borderline b...

متن کامل

ذخیره در منابع من


  با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید

ژورنال

عنوان ژورنال: Artificial Intelligence in Medicine

سال: 2021

ISSN: ['1873-2860', '0933-3657']

DOI: https://doi.org/10.1016/j.artmed.2020.101987